Skip to main content

DETRs Beat YOLOs on Real-time Object Detection

动机

DETRs基于Transformer的优势与挑战:

  • DETRs基于Transformer由于其简化的架构和对手工设计组件(如 NMS非最大抑制,一种后处理算法,用于去除冗余的重叠框,以提高检测模型输出的精确性,传统检测器依赖此方法来优化检测结果。)的消除而备受关注。
  • 然而,DETRs 的高计算成本使其难以满足检测的需求,无法发挥其无NMS架构在 inference指模型在训练之后,实际执行对象检测的过程,用于评估模型在真实场景中的应用效果。 speed上的优势。

多尺度特征的影响: Multi-scale features 的引入有助于加速训练收敛,但也导致输入到编码器的序列长度显著增加。交互产生的高计算成本使 Transformer编码器成为计算瓶颈。

Query selection 的问题:

  • 以往的研究表明,难以优化的 object queries 阻碍了 DETRs
  • 现有的 query selection方法直接采用分类分数进行选择,忽略了检测器需要同时建模目标的类别和位置信息,这导致具有低定位置信度的编码器特征被选为初始查询,从而引入不确定性,影响 DETRs的性能。

总体框架

overview

高效混合编码器设计:

传统的DETR模型在处理多尺度特征时,编码器成为了计算瓶颈。这是因为多尺度特征的引入显著增加了输入编码器的序列长度,从而导致高计算开销。RT-DETR采用了高效的混合编码器,由两个模块组成:基于注意力的内部尺度特征交互模块(AIFI)和基于CNN的跨尺度特征融合模块(CCFF)。AIFI模块只对高层特征(S5)进行注意力编码,处理时间更快;CCFF模块则通过卷积层对相邻尺度的特征进行融合,以减少冗余并提升信息整合的效率。

CCFF:

  • 跨尺度特征融合:CCFF 负责将来自不同尺度的特征进行融合,主要目标是结合不同层级的特征信息,例如,低层特征包含更多的细节信息,而高层特征包含更多的语义信息。
  • CNN 结构:CCFF 采用基于 CNN 的结构(如 PANet-style),通过卷积层和融合块(fusion block)实现跨尺度特征的有效融合。
  • 融合块 (Fusion Block):融合块包含 1x1 卷积调整通道数,以及 N 个 RepBlock 进行特征融合,并通过 element-wise add 融合两条路径的输出。

CCFF

Q=K=V=Flatten(S5),F5=Reshape(AIFI(Q,K,V)),O=CCFF({S3,S4,F5}),\begin{align} Q = K = V = \text{Flatten}(S_5), \\ F_5 = \text{Reshape}(\text{AIFI}(Q, K, V)), \\ O = \text{CCFF}(\{S_3, S_4, F_5\}), \end{align}

不确定性最小查询选择:

为了减少在DETR中优化对象查询的难度,若干后续工作使用置信度分数从编码器中选择前K个特征来初始化对象查询(或仅仅是位置查询)。置信度分数表示该特征包含前景对象的可能性。检测器需要同时对对象的类别和位置进行建模。特征不确定性U被定义为定位P和分类C的预测分布之间的差异。为了最小化查询的不确定性,将不确定性整合到损失函数中,以便进行基于梯度的优化。

U(X^)=P(X^)C(X^),X^RDL(X^,Y^,Y)=Lbox(b^,b)+Lcls(U(X^),c^,c)\begin{align} U(\hat{X}) = & \|P(\hat{X}) - C(\hat{X})\|, \quad \hat{X} \in \mathbb{R}^D \\ L(\hat{X}, \hat{Y}, Y) = & L_{\text{box}}(\hat{b}, b) + L_{\text{cls}}(U(\hat{X}), \hat{c}, c) \end{align}

下图是作者做的实验,展示通过 uncertainty-minimal query selection选出的特征,在质量上优于传统 vanilla query selection方法。横轴 (IoU score): 表示预测边界框与真实边界框的 Intersection over Union(IoU)得分,用于衡量定位的准确性。IoU 分数越高,定位越准确。纵轴 (Classification score): 表示分类的置信度得分,用于衡量该特征包含前景物体的可能性。 分类得分越高,表示该特征越有可能是真正的物体。分析如下:

  • 紫色点 (Uncertainty-minimal) 更多地集中在图的右上角,这表明使用 uncertainty-minimal query selection选出的特征通常具有更高的分类得分和更高的 IoU 得分,也就是同时拥有更高的分类置信度和更精确的定位。
  • 绿色点 (Vanilla) 则相对分散,尤其是在高 IoU 得分区域,分类得分相对较低,表明 vanilla query selection倾向于选择一些定位准确但分类置信度不高的特征。
  • 密度曲线也显示,uncertainty-minimal query selection在高分类得分和高 IoU 得分区域的密度更高,进一步验证了其选择的特征质量更高。

uncertain

总结

RT-DETR 是首个实时端到端物体检测器,其核心目标是在保持检测精度的同时,实现高速处理。该研究的目标是解决YOLO系列模型在非极大值抑制(NMS)后处理环节中存在的速度和精度折中问题。

RT-DETR-R50 在 COCO val2017 上达到了 53.1% 的平均准确率(AP),在 T4 GPU 上达到了 108 帧每秒(FPS),而 RT-DETR-R101 则达到了 54.3% AP 和 74 FPS,RT-DETR-R50 在准确性上比 DINO-Deformable-DETR-R50 高出 2.2% AP(53.1% AP 对比 50.9% AP),在 FPS 上快了约 21 倍(108 FPS 对比 5 FPS),显著提高了 DETR 的准确性和速度。在使用 Objects365 进行预训练后,RT-DETR-R50 / R101 分别达到了 55.3% / 56.2% AP,实现了显著的性能提升。

  • 🚀 设计高效混合编码器,快速处理多尺度特征并提高推理速度。
  • 🔍 提出不确定性最小化查询选择,优化初始查询,提高检测精度。
  • ⚙️ 支持灵活的速度调节,通过调整解码器层数适应不同应用场景。